01. 深度强化学习
深度强化学习
INSTRUCTOR NOTE:
注意:\mathcal{R} 是所有奖励的集合。奖励概率以联合方式与转换概率一起指定为:p(s'', r | s, a) = \mathbb{P}(S_{t+1}=s'', R_{t+1}=r|S_t=s, A_t=a)
深度强化学习
注意:\mathcal{R} 是所有奖励的集合。奖励概率以联合方式与转换概率一起指定为:p(s'', r | s, a) = \mathbb{P}(S_{t+1}=s'', R_{t+1}=r|S_t=s, A_t=a)